Cloudflare 推出阻止 AI 爬虫的新功能

4 July 2024 — developer

Cloudflare Inc. 今天推出了一项新的无代码功能，用于防止人工智能开发者抓取网站内容。

这个功能是公司旗舰级的 CDN（内容分发网络）的一部分。许多网站都使用该平台来加快页面加载速度。据 Cloudflare 称，这一防爬虫功能在其免费和付费版 CDN 中都能使用。

很多 AI 公司利用网络上的公开内容来训练它们的大语言模型 (Large Language Model, LLM)。OpenAI、Google LLC 等公司允许网站运营商选择不被抓取。然而，并不是所有的 LLM 开发者都提供这种选项，这正是 Cloudflare 通过其防爬虫工具希望解决的问题。

新功能使用 AI 来检测自动内容提取行为。据 Cloudflare 称，其软件能够识别出即便是伪装成正常用户请求的爬虫。

“遗憾的是，我们发现一些爬虫运营商试图伪装成真实浏览器，”Cloudflare 的工程师在今天的博客文章中写道。“我们长期监测这一活动，并且自豪地说，我们的全球机器学习模型一直能够识别这种活动是爬虫。”

Cloudflare 检测到的爬虫之一是专门为初创搜索引擎公司 Perplexity AI Inc. 收集内容的机器人。上个月，Wired 网站的报道提到，该爬虫请求方式使其看起来像正常用户流量。因此，网站运营商一直难以阻止 Perplexity AI 使用他们的内容。

Cloudflare 会为其平台处理的每次网站访问分配一个从 1 到 99 的评分。分数越低，说明请求更有可能是由爬虫发出的。据公司称，为 Perplexity AI 收集内容的爬虫发出的请求其得分常常低于 30。“当不法分子大规模爬取网站时，他们通常会使用我们能够识别到的工具和框架，”Cloudflare 的工程师解释道。“对于我们检测到的每一个指纹，我们通过 Cloudflare 的网络来判断信任度，该网络平均每秒处理超过 5700 万次请求。”Cloudflare 将不断更新此功能，以应对 AI 抓取爬虫技术指纹的变化和新爬虫的出现。作为这一举措的一部分，公司还推出了一款工具，允许网站运营商报告他们遇到的新爬虫。